计算机视觉 |
您所在的位置:网站首页 › 图像定位 图像检测 › 计算机视觉 |
计算机视觉-深度学习图像检测方法梳理
由于之后要转方向啦,趁这段时间整理手中硕士研究方向的一些阅读笔记,这是一篇关于计算机视觉的基础知识梳理 先搞清一些小知识点首先我们要弄清楚图像分类、目标定位、语义分割、实例分割的区别 其次,什么是选择性搜索Selective Search(SS)? 在目标检测时,为了定位到目标的具体位置,通常会把图像分成许多子块(sub-regions / patches),然后把子块作为输入,送到目标识别的模型中。分子块的最直接方法叫滑动窗口法(sliding window approach)。滑动窗口的方法就是按照子块的大小在整幅图像上穷举所有子图像块。和滑动窗口法相对的是另外一类基于区域(region proposal)的方法。selective search就是其中之一。至于为什么选SS,是因为相比滑窗法在不同位置和大小的穷举,候选区域算法将像素分配到少数的分割区域中。所以最终候选区域算法产生的数量比滑窗法少的多,从而大大减少运行物体识别算法的次数。同时候选区域算法所选定的范围天然兼顾了不同的大小和长宽比。
这样做的主要原因在于,CNN训练需要大规模的数据,如果标定要求极其严格(即只有完全包含目标区域且不属于目标的区域不能超过一个小的阈值),那么用于CNN训练的样本数量会很少。因此,宽松标定条件下训练得到的CNN模型只能用于特征提取 Step3:分类器(SVMs) 训练:对于所有proposal进行严格的标定(当且仅当一个候选框完全包含ground truth区域且不属于ground truth部分不超过候选框区域的5%时认为该候选框标定结果为目标,否则为背景),然后将所有proposal经过CNN处理得到的特征和SVM新标定结果输入到SVMs分类器进行训练得到分类器预测模型。 测试:对于一副测试图像,提取得到的2000个proposal经过CNN特征提取后输入到SVM分类器预测模型中,可以给出特定类别评分结果。 结果生成: 得到SVMs对于所有Proposal的评分结果,将一些分数较低的proposal去掉后,剩下的proposal中会出现候选框相交的情况。采用非极大值抑制技术,对于相交的两个框或若干个框,找到最能代表最终检测结果的候选框。 这里简单说一下非极大值抑制的具体操作:基于前面的网络能为每个框给出一个score,score越大证明框越接近期待值。如图两个目标分别有多个选择框,现在要去掉多余的选择框。分别在局部选出最大框,然后去掉和这个框IOU(交并比)>0.7的框。如图
crop有时只能得到目标的局部,可以理解为裁剪;但wrap会改变原目标的长宽比,甚至导致图像的扭曲,即将图像裁剪到一定尺寸。根据具体需求选择使用。 2.由于SPP-net支持不同尺寸输入图像,因此SPP-net提取得到的图像特征具有更好的尺度不变性,降低了训练过程中的过拟合可能性。 3.R-CNN在训练和测试时需要对每一个图像中每一个proposal进行一遍CNN前向特征提取。但SPP-net只需要进行一次前向CNN特征提取,即对整图进行CNN特征提取,得到最后一个卷积层的feature map,然后采用SPP-layer根据空间对应关系得到相应proposal的特征。SPP-net速度可以比R-CNN速度快24~102倍,且准确率比R-CNN更高。 不难看出,SPP的关键实现在于通过conv5输出的feature map宽高和SPP目标输出bin的宽高计算spatial pyramid pooling中不同分辨率Bins对应的pooling window和pool stride尺寸。 FAST-R-CNN首先总结一下前两个网络的缺点: 1.R-CNN和SPP-Net的训练过程类似,分多个阶段进行,实现过程复杂。 2.R-CNN和SPP-Net的时间成本和空间代价较高。SPP-Net在特征提取阶段只需要对整图做一遍前向CNN计算;RCNN在特征提取阶段对每一个proposal均需要做一遍前向CNN计算,因此RCNN特征提取的时间成本很高。R-CNN和SPP-Net用于训练SVMs分类器的特征需要提前保存在磁盘,考虑到2000个proposal的CNN特征总量还是比较大,因此造成空间代价较高。 3.R-CNN检测速度很慢。RCNN在特征提取阶段对每一个proposal均需要做一遍前向CNN计算,如果用VGG进行特征提取,处理一幅图像的所有proposal需要47s。 4.特征提取CNN的训练和SVMs分类器的训练在时间上是先后顺序,两者的训练方式独立,因此SVMs的训练Loss无法更新SPP-Layer之前的卷积层参数,因此即使采用更深的CNN网络进行特征提取,也无法保证SVMs分类器的准确率一定能够提升。 相对于前两个网络,FAST-R-CNN有以下亮点: 1.Fast-R-CNN检测效果优于R-CNN和SPP-Net; 2.训练方式简单,基于多任务Loss,不需要SVM训练分类器; 3.Fast-R-CNN可以更新所有层的网络参数(采用ROI Layer将不再需要使用SVM分类器,从而可以实现整个网络端到端训练); 4.不需要将特征缓存到磁盘。 |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |